在上一篇實作了簡單線性回歸後,我們了解了如何訓練模型及使用模型,並且明白了一個關鍵點:應該根據資料的分佈來決定使用什麼樣的模型。雖然這是後續會討論的主題,但等我們學習了各種機器學習模型之後,深入探討也不遲。
今天,我們將介紹機器學習領域中常見的一些基本術語及其含義,這將為我們未來學習和應用不同模型打下基礎。
特徵是輸入到模型中的變量或屬性,用於幫助模型進行預測或分類。特徵可以是數值型的(如年齡、收入),也可以是類別型的(如性別、地區)。在機器學習中,選擇和提取有效的特徵是十分重要的事情(稱之爲特徵工程),提取有效的特徵是提高模型性能的關鍵之一。
Bias 指的是模型預測與實際結果之間的誤差,反映了模型對資料的簡化程度。高偏差的模型通常過於簡單,無法捕捉資料的複雜性,從而導致欠擬合(under-fitting,與之相反的是過擬合over-fitting,是因爲對訓練的資料過於敏感而導致的現象)。另一方面,偏差也可以指模型中的一個參數,它調整模型輸出的基準值,以確保預測不總是從零開始。例如,在線性回歸中,偏差項可以視為截距(有些教材會使用β0表示),用於調整回歸線的位置。
模型是機器學習算法通過數學結構(注意,這裏説的是結構,這很重要)來表示資料之間關係的工具。它接收輸入資料(特徵),進行計算並輸出預測結果。常見的模型包括線性回歸、決策樹和神經網絡等。模型性能的好壞取決於其能否準確捕捉輸入特徵與目標之間的關聯性。好的模型可以在不同Data Set上保持穩定的預測能力。
誤差曲面描述了模型的損失(誤差,loss)隨著模型參數變化而形成的多維曲面。每個參數組合在誤差曲面上對應一個點,該點的高度代表了模型的誤差大小。在模型訓練過程中,優化目標是通過調整參數來尋找誤差曲面的最低點,即損失函數的最小值。這是一個多維空間中的搜尋過程,常常需要依靠優化算法(如Gradient Decent)來完成。
學習率是梯度下降等優化算法中的一個超參數(hyper parameter,之後會談到),決定每次參數更新的步伐大小。學習率過高可能會導致模型跳過最佳點,無法收斂;學習率過低則可能使模型收斂速度非常緩慢,甚至陷入局部最小值(local minama)。調整合適的學習率是訓練過程中非常重要的一部分。